首页> 外文OA文献 >Modern Data Formats for Big Bioinformatics Data Analytics
【2h】

Modern Data Formats for Big Bioinformatics Data Analytics

机译:大生物信息学数据分析的现代数据格式

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

Next Generation Sequencing (NGS) technology has resulted in massive amountsof proteomics and genomics data. This data is of no use if it is not properlyanalyzed. ETL (Extraction, Transformation, Loading) is an important step indesigning data analytics applications. ETL requires proper understanding offeatures of data. Data format plays a key role in understanding of data,representation of data, space required to store data, data I/O duringprocessing of data, intermediate results of processing, in-memory analysis ofdata and overall time required to process data. Different data mining andmachine learning algorithms require input data in specific types and formats.This paper explores the data formats used by different tools and algorithms andalso presents modern data formats that are used on Big Data Platform. It willhelp researchers and developers in choosing appropriate data format to be usedfor a particular tool or algorithm.
机译:下一代测序(NGS)技术已经产生了大量蛋白质组学和基因组学数据。如果未正确分析,则此数据无用。 ETL(提取,转换,加载)是设计数据分析应用程序的重要步骤。 ETL需要正确理解数据的功能。数据格式在理解数据,数据表示,存储数据所需的空间,数据处理期间的数据I / O,处理的中间结果,数据的内存中分析以及处理数据所需的总时间方面起着关键作用。不同的数据挖掘和机器学习算法需要特定类型和格式的输入数据。本文探讨了不同工具和算法使用的数据格式,并提出了在大数据平台上使用的现代数据格式。它将帮助研究人员和开发人员选择用于特定工具或算法的适当数据格式。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利